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上 节 课 我 们 主要 介绍 了 非 线性 分 类 模型 ， 通 过 非 线性 变换 ， 将 非 线性 模型 映射 到 另 一 
个 空间 ， 转 换 为 线性 模型 ， 再 来 进行 分 类 ， 分 析 了 非 线性 变换 可 能 会 使 计算 复杂 度 增 
加 。 本 节 课 介绍 这 种 模型 复杂 度 增加 带 来 机 器 学 习 中 一 个 很 重要 的 问题 : 过 拟 合 
(overfitting) 。 


一 、What is Overfitting? 


首先 ， 我 们 通过 一 个 例子 来 介绍 什么 bad generalization。 假 设 平面 上 有 5 个 点 ， 目 标 
国 数 f(x) 是 2 阶 多 项 式 ， 如 果 hypothesis 是 二 阶 多 项 式 加 上 一 些小 的 noise 的 话 ， 那 么 这 
5 个 点 很 靠近 这 个 hypothesis，in, 很 小 。 如 果 hypothesis 是 4 阶 多 项 式 ， 那 么 这 5 点 会 
完全 落 在 hypothesis 上 ， 丈 in 二 0。 虽然 4 阶 hypothesis 的 Bin, 上 Lb2 阶 hypothesis 的 要 好 
很 多 ， 但 是 它 的 Bj 很 大 。 因 为 根据 VC Bound 理 论 ， 阶 数 越 大 ， 即 VC Dimension 越 
大 ， 就 会 让 模型 复杂 度 更 高 ，Bowt 更 大 。 我 们 把 这 种 忆 i 很 小 ，Bowt 很 大 的 情况 称 之 
为 bad generation， 即 泛 化 能 力 差 。 
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我 们 回 过 头 来 看 一 下 VC 曲线 : 
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Error 


in-sample error 


. i 
wp VC dimension, dvc 


hypothesis 的 阶 数 越 高 ， 表 示 VC Dimension 越 大 。 随 着 VC Dimension 增 大 ，Ejy 是 一 
直 减 小 的 ， 而 owt 先 减 小 后 增 大 。 在 d* 位 置 ，bowt 取 得 最 小 值 。 在 dj, 右 侧 ， 随 着 
VC Dimension 越 来 越 大 ，i, 越 来 越 小 ， 接 近 于 0，owt 越 来 越 大 。 即 当 VC 
Dimension 很 大 的 时 候 ， 这 种 对 训练 样本 拟 合 过 分 好 的 情况 称 之 为 过 拟 合 

(overfitting) 。 另 一 方面 ， 在 dyw 左 侧 ， 随 着 VC Dimension 越 来 越 小 ，Ei;n, 和 Eowt 
都 越 来 越 大 ， 这 种 情况 称 之 为 从 拟 合 (underfitting) ， 即 模型 对 训练 样本 的 拟 合 度 太 
差 ，VC Dimension 太 小 了 。 


e take vc = 1126 forlearning: 
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bad generation 和 overfitting 的 关系 可 以 理解 为 : overfitting 是 VC Dimension 过 大 的 一 
个 过 程 ，bad generation 是 overfitting 的 结果 。 


bad generalization: low Ein, high Eout; 
overfitting: lower Ein, higher Eout 


一 个 好 的 ft， 五 和 瑟 o 都 比较 小 ， 尽 管 玉 ij， 没有 足够 接近 枚 ; 而 对 overfitting 来 说 ， 
Bin 久 0， 但 是 ot 很 大 。 那 么 ，overfitting 的 原因 有 哪些 呢 ? 


我 们 举 个 开车 的 例子 ， 把 发 生 车 祸 比 作成 overfitting， 那 么 造成 车 祸 的 原因 包括 : 


。 车 速 太 快 (VC Dimension 太 大 ) ; 
。 道路 崎 虐 (noise) ; 
。 对 路 况 的 了 解 程度 〈 训 练 样本 数量 N 不 够 ) ; 


也 就 是 说 ，VC Dimension、noise、N 这 三 个 因素 是 影响 过 拟 合 现象 的 关键 。 
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二 、The Role of Noise and Data Size 


为 了 尽 可 能 详细 地 解释 overfitting， 我 们 进行 这 样 一 个 实验 ， 试 验 中 的 数据 集 不 是 很 
大 。 首 先 ， 在 二 维 平面 上 ， 一 个 模型 的 分 布 由 目标 函数 f(x) (x 的 10 阶 多 项 式 ) 加 上 一 
些 noise 构 成 ， 下 图 中 ， 离 散 的 圆圈 是 数据 集 ， 目 标 函 数 是 蓝 色 的 曲线 。 数 据 没有 完全 
落 在 曲线 上 ， 是 因为 加 入 了 noise。 





10-th order target function 





然后 ， 同 样 在 二 维 平面 上 ， 另 一 个 模型 的 分 布 由 目标 函数 f(x) (x 的 50 阶 多 项 式 ) 构 
成 ， 没 有 加 入 noise。 下 图 中 ， 离 散 的 圆圈 是 数据 集 ， 目 标 函 数 是 蓝 色 的 曲线 。 可 以 看 
出 由 于 没有 noise， 数 据 集 完 全 落 在 曲线 上 。 


50-th order target function 





现在 ， 有 两 个 学 习 模 型 ， 一 个 是 2 阶 多 项 式 ， 另 一 个 是 10 阶 多 项 式 ， 分 别 对 上 面 两 个 
问题 进行 建 模 。 首 先 ， 对 于 第 一 个 目标 函数 是 10 阶 多 项 式 包含 noise 的 问题 ， 这 两 个 学 
习 模型 的 效果 如 下 图 所 示 : 
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由 上 图 可 知 ，2 阶 多 项 式 的 学 习 模型 i;n, 二 0.050，Eowt 二 0.127; 10 阶 多 项 式 的 学 
习 模 型 i,, 二 0.034，Eowt = 9.00。 昌 然 10 阶 模型 的 Bin, 比 2 阶 的 小 ， 但 是 其 Bowt 
要 比 2 阶 的 大 得 多 ， 而 2 阶 的 in 和 owt 相 差 不 大 ， 很 明显 用 10 阶 的 模型 友 生 了 过 拟 


和 人生 
口 。 


然后 ， 对 于 第 二 个 目标 函数 是 50 阶 多 项 式 没有 noise 的 问题 ， 这 两 个 学 习 模 型 的 效果 如 
下 图 所 示 : 


50-th order target function 
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由 上 图 可 知 ，2 阶 多 项 式 的 学 习 模型 i,, 二 0.029，Eowt 二 0.120; 10 阶 多 项 式 的 学 
习 模 型 i;,, 三 0.00001，Eowt 三 7680。 虽 然 10 阶 模型 的 Bii, 比 2 阶 的 小 ， 但 是 其 
out 要 比 2 阶 的 大 得 多 的 多 ， 而 2 阶 的 Bin, 和 owt 相 差 不 大 ， 很 明显 用 10 阶 的 模型 仍然 


发 生 了 明显 的 过 拟 合 。 

上 面 两 个 问题 中 ，10 阶 模型 都 发 生 了 过 拟 合 ， 反 而 2 阶 的 模型 却 表 现 得 相对 不 错 。 这 

好 像 违背 了 我 们 的 第 一 感觉 ， 比 如 对 于 目标 函数 是 10 阶 多 项 式 ， 加 上 noise 的 模型 ， 按 
道理 来 说 应 该 是 10 阶 的 模型 更 能 接近 于 目标 函数 ， 因 为 它们 阶 数 相同 。 但 是 ， 事 实 却 
是 2 阶 模型 泛 化 能 力 更 强 。 这 种 现象 产生 的 原因 ， 从 哲学 上 来 说 ， 就 是 “以 退 为 进 "-。 有 
时 候 ， 简 单 的 学 习 模 型 反而 能 表现 的 更 好 。 

下 面 从 Ilearning curve 来 分 析 一 下 具体 的 原因 ，learning curve 描 述 的 是 锯 i; 和 owt 随 

着 数据 量 N 的 变化 趋势 。 下 图 中 左边 是 2 阶 学 习 模 型 的 learning curve， 右 边 是 10 阶 学 

习 模 型 的 learning curve。 
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我 们 的 第 9 次 课 的 笔记 NTU 林 轩 田 机 器 学 习 基 石 课程 学 习 笔记 9 -- Linear Regression 
已 经 介绍 过 了 learning curve。 在 learning curve 中 ， 横 轴 是 样本 数量 N， 纵 轴 是 Error。 
Bi 和 Eovt 可 表示 为 : 
Q 十 1 
Ei;n, = noiselevel * (1 一 一 一 一 
noiselevel * ( 天 ) 


d+1l 
Eout = noiselevel * (] 十 于) 


其 中 d 为 模型 阶 次 ， 左 图 中 d=2， 右 图 中 d=10。 


本 节 的 实验 问题 中 ， 数 据 量 N 不 大 ， 即 对 应 于 上 图 中 的 灰色 区 域 。 左 图 的 灰色 区 域 
中 ， 因 为 d=2，Ein 和 owt 相 对 来 说 比较 接近 ; 右 图 中 的 灰色 区 域 中 ，d=10， 根 据 


jin 和 owt 的 表达 式 ,， in 很 小 ， 而 Bowut 很 大 。 这 就 解释 了 之 前 2 阶 多 项 式 模型 的 及 
更 接近 Eovt， 泛 人 能 力 更 好 。 


值得 一 提 的 是 ， 如 果 数 据 量 N 很 大 的 时 人 息 ， 上 面 两 图 中 Bi 和 owt 都 比较 接近 ,但 是 
对 于 高 阶 模型 ，z 域 中 的 特征 很 多 的 时 候 ， 需 要 的 样本 数量 N 很 大 ， 且 容易 发 生 维度 灾 
难 。 关 于 维度 灾难 的 详细 生动 解释 ， 请 参考 我 另 一 篇 博文 : 


机 器 学 习 中 的 维度 灾难 


男 一 个 例子 中 ， 目 标 消 数 是 50 阶 多 项 式 ， 且 没有 加 入 noise。 这 种 情况 下 ， 我 们 发 现 仍 
然 是 2 阶 的 模型 拟 合 的 效果 更 好 一 些 ， 明 明 没 有 noise， 为 什么 是 这 样 的 结果 呢 ? 


实际 上 ， 我 们 忽略 了 一 个 问题 : 这 种 情况 真 的 没有 noise 吗 ? 其 实 ， 当 模型 很 复杂 的 时 
候 ， 即 50 阶 多 项 式 的 目标 函数 ， 无 论 是 2 阶 模型 还 是 10 阶 模型 ， 都 不 能 学 习 的 很 好 ， 
这 种 复杂 度 本 身 就 会 引入 一 种 moise'。 所 以 ， 这 种 高 阶 无 noise 的 问题 ， 也 可 以 类 似 于 
10 阶 多 项 式 的 目标 函数 加 上 noise 的 情况 ， 只 是 二 者 的 noise 有 些许 不 同 ， 下 面 一 部 分 
将 会 详细 解释 。 


三 、Deterministic Noise 
下 面 我 们 介绍 一 个 更 细节 的 实验 来 说 明 什么 时 候 小 心 overfit 会 发 生 。 假 设 我 们 产生 的 
数据 分 布 由 两 部 分 组 成 : 第 一 部 分 是 目标 函数 f(x)，Q f 阶 多 项 式 ; 第 二 部 分 是 噪声 e， 


服从 Gaussian 分 布 。 接 下 来 我 们 分 析 的 是 noise 强 度 不 同 对 overfitting 有 什么 样 的 影 
啊 。 总 共 的 数据 量 是 N。 


y = f(x)+e 
Q 
~ Gaussian ( 5 aqX9， 站) 
q=0 
f(x) 





。 Gaussian iid noise ec with level o* 


。 Some ‘uniform’ distribution on f(x) 
with complexity level CQ; 


e data size N 


那么 下 面 我 们 分 析 不 同 的 (NN, o? ) 和 (入 , QF) 对 overfit 的 影响 。overfit 可 以 量化 为 


上 一 Ein。 结果 如 下 : 


impact of o” versus N impact of Qr versus N 
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上 图 中 ， 红 色 越 深 ， 代 表 overfit 程 度 越 高 ， 蓝 色 越 深 ， 代 表 overfit 程 度 越 低 。 先 看 左边 
的 图 ， 左 图 中 阶 数 Q /固定 为 20， 横 坐标 代表 样本 数量 N， 纵 坐标 代表 噪声 水 平 c”。 
红色 区 域 集中 在 N 很 小 或 者 o2 很 大 的 时 候 ， 也 就 是 说 N 越 大 ，o? 越 小 ， 越 不 容易 发 生 
overfit。 右 边 图 中 o? 二 0.1， 横 坐标 代表 样本 数量 N， 纵 坐标 代表 目标 函数 阶 数 Q y。 
红色 区 域 集中 在 N 很 小 或 者 @ 很 大 的 时 候 ， 也 就 是 说 N 越 大 ，Q y 越 小 ， 越 不 容易 发 生 
overfit。 上 面 两 图 基本 相似 。 

从 上 面 的 分 析 ， 我 们 发 现 o? 对 overfit 是 有 很 大 的 影响 的 ， 我 们 把 这 种 noise 称 之 为 
stochastic noise。 同 样 地 ，Q@ y 即 模型 复杂 度 也 对 overfit 有 很 大 影响 ， 而 且 二 者 影响 是 
相似 的 ， 所 以 我 们 把 这 种 称 之 为 deterministic noise。 之 所 以 把 它 称 为 noise， 是 因为 


模型 高 复杂 度 带 来 的 影响 。 
总 结 一 下 ， 有 四 个 因素 会 导致 发 生 overfitting: 


。 data size NJ 

。 stochastic noise o2 个 

。 deterministic noise Qf: 个 

。 excessive power 二 
我 们 刚才 解释 了 如 果 目 标 函 数 f(x) 的 复杂 度 很 高 的 时 候 ， 那 么 跟 有 noise 也 没有 什么 两 
样 。 因 为 目标 函数 很 复杂 ， 那 么 再 好 的 hypothesis 都 会 跟 它 有 一 些 差 距 ， 我 们 把 这 种 
差距 称 之 为 deterministic noise。deterministic noise 与 stochastic noise 不 同 ， 但 是 效 
果 一 样 。 其 实 deterministic noise 类 似 于 一 个 伪 随 机 数 发 生 器 ， 它 不 会 产生 真正 的 随机 
数 ， 而 只 产生 伪 随 机 数 。 它 的 值 与 hypothesis 有 关 ， 且 固定 点 x 的 deterministic noise 值 


是 固定 的 。 
四 、Dealing with Overfitting 


现在 我 们 知道 了 什么 是 overfitting， 和 overfitting 产 生 的 原因 ， 那 么 如 何 避 免 overfitting 
呢 ? 避 免 overfitting 的 方法 主要 包括 : 

。 Start from simple model 

。 data cleaning/pruning 

。 data hinting 

。 regularization 


e。 Validataion 


这 几 种 方法 类 比 于 之 前 举 的 开车 的 例子 ， 对 应 如 下 : 





learning driving 
overfit commit a car accident 
USe excessive d\c ‘drive too fast 
noise bumpy road 
limited data size N limited observations about road condition 
start from simple model drive slowly 
data cleaning/pruning Use more accurate road information 
data hinting exploit more road information 
regularization put the brakes 
validation monitor the dashboard 





regularization 和 validation 我 们 之 后 的 课程 再 介绍 ， 本 节 课 主要 介绍 简单 的 data 
cleaning/pruning 和 data hinting 两 种 方法 。 


data cleaning/pruning 就 是 对 训练 数据 集 里 label 明 显 错误 的 样本 进行 修正 (data 
cleaning) ， 或 者 对 错误 的 样本 看 成 是 noise， 进 行 剔 除 (data pruning) 。data 


cleaning/pruning 关 键 在 于 如 何 准 确 寻 找 label 错 误 的 点 或 者 是 noise 的 点 ， 而 且 如 果 这 
些 点 相 比 训练 样本 N 很 小 的 话 ， 这 种 处 理 效 果 不 太 明 显 。 


data hinting 是 针对 N 不 够 大 的 情况 ， 如 果 没 有 办 法 获得 更 多 的 训练 集 ， 那 么 data 
hinting 就 可 以 对 已 知 的 样本 进行 简单 的 处 理 、 变 换 ， 从 而 获得 更 多 的 样本 。 举 个 例 
子 ， 数 字 分 类 问题 ， 可 以 对 已 知 的 数字 图 片 进行 轻 微 的 平移 或 者 旋转 ， 从 而 让 N 丰 富 
起 来 ， 达 到 扩大 训练 集 的 目的 。 这 种 额外 获得 的 例子 称 之 为 virtual examples。 但 是 要 


注意 一 点 的 就 是 ， 新 获取 的 virtual examples 可 能 不 再 是 iid 某 个 distribution。 所 以 新 构 
建 的 virtual examples 要 尽量 合理 ， 且 是 独立 同 分 布 的 。 


五 、 总 总 结 


本 节 课 主要 介绍 了 overfitting 的 概念 ， 即 当 Biy 很 小 ，Eowt 很 大 的 时 候 ， 会 出 现 
overfitting。 详 细 介 绍 了 overfitting 发 生 的 四 个 常见 原因 data size N、stochastic 
noise、deterministic noise 和 excessive power。 解 决 overfitting 的 方法 有 很 多 ， 本 节 课 
主要 介绍 了 data cleaning/pruning 和 data hinting 两 种 简单 的 方法 ， 之 后 的 课程 将 会 详 
细 介 绍 regularization 和 validataion 两 种 更 重要 的 方法 。 


注 明 : 
文章 中 所 有 的 图 片 均 来 自 台 湾 大 学 林 轩 田 《 机 器 学 习 基 石 》 课 程 


